尽管基于头脑的化身创造解决方案的出色过程,但直接生成具有全身动作的锚定视频仍然具有挑战性。在这项研究中,我们提出了一种新型的系统,这是一个新型的系统,仅对一个人进行一分钟的视频剪辑进行培训,随后启用了具有精确的躯干和手动运动的自动生成锚固风格的视频。具体来说,我们对输入视频的提议的结构引导的扩散模型进行了修订,以使3D网格条件呈现到人类的外观中。我们为扩散模型采用两阶段的训练策略,有效地结合了特定外观的运动。为了产生任意的长时间视频,我们将框架扩散模型中的2D U-NET扩展到3D样式,而无需额外的培训成本,并且提出了一个简单而有效的批次批次的时间denois-denois-denoising模块,以绕过推理过程中视频长度的约束。最后,引入了一个新颖的特定身份面部增强模块,以提高输出视频中面部区域的vi质量。合理实验证明了有效性和su-
主要关键词